Masked Language Modeling (MLM) has proven to be an essential component of Vision-Language (VL) pretraining. To implement MLM, the researcher must make two design choices: the masking strategy, which determines which tokens to mask, and the masking rate, which determines how many tokens to mask. Previous work has focused primarily on the masking strategy while setting the masking rate at a default of 15\%. In this paper, we show that increasing this masking rate improves downstream performance while simultaneously reducing performance gap among different masking strategies, rendering the uniform masking strategy competitive to other more complex ones. Surprisingly, we also discover that increasing the masking rate leads to gains in Image-Text Matching (ITM) tasks, suggesting that the role of MLM goes beyond language modeling in VL pretraining.
translated by 谷歌翻译
使用自然语言作为培训视觉识别模型的监督持有巨大的承诺。最近的作品表明,如果在大型训练数据集中的图像和标题之间的对齐形式使用此类监督,则结果对齐模型在零拍摄分类中表现出色,如下游任务2。在本文中,我们专注于挑逗语言监督的哪些部分对于训练零拍摄图像分类模型至关重要。通过广泛和仔细的实验​​,我们表明:1)可以将简单的单词(弓)标题用作数据集中大多数图像标题的替代品。令人惊讶的是,我们观察到这种方法在与单词平衡结合时提高了零拍分类性能。 2)使用船首净化模型,我们可以通过在没有标题的图像上生成伪弓标题来获得更多培训数据。使用真实和伪弓形标题培训的模型达到了更强的零射性能。在ImageNet-1K零拍评估中,我们只使用3M图像标题对的最佳模型,使用15M图像标题对培训的剪辑模型(31.5%VS 31.3%)进行剪辑。
translated by 谷歌翻译
当一个神经语言模型(LM)适于执行新任务时,任务的哪些方面预测了模型的最终性能?在NLP中,LM概括到个别示例的系统特征很好,但LM对新任务的系统的系统性方面并不理解。我们使用500个程序生成的序列建模任务构建的新基准测试,展示了LM适应性的特性和限制的大规模实证研究。这些任务组合了语言处理的核心方面,包括词汇语义,序列处理,记忆,逻辑推理和世界知识。使用TaskBench500,我们评估了三个适应性的方面,发现:(1)适应程序在他们记忆小型数据集的能力中急剧差异; (2)在任务类型的子集中,适应程序表现出对复杂任务的组成适应性; (3)未能匹配培训标签分布,在预测个别标签的内在难度中解释了不匹配。我们的实验表明,可以系统地描述和理解新的任务,如新示例的泛化,以及讨论可以使用新基准研究的适应性的其他方面的结论。
translated by 谷歌翻译
将最新的变压器模型蒸馏成轻量级的学生模型是降低推理时计算成本的有效方法。学生模型通常是紧凑的变压器,参数较少,而昂贵的操作(例如自我发项)持续存在。因此,对于实时或大量用例,提高的推理速度仍然不令人满意。在本文中,我们旨在通过将教师模型提炼成更大,更稀疏的学生模型来进一步推动推理速度的极限 - 更大的是它们扩展到数十亿个参数;稀疏,大多数模型参数是N-gram嵌入。我们对六个单词文本分类任务的实验表明,这些学生模型平均保留了罗伯塔大师教师表现的97%,同时推理时GPU和CPU的加速速度最高为600倍。进一步的调查表明,我们的管道也有助于句子对分类任务和域泛化设置。
translated by 谷歌翻译
最近的参数效率语言模型调整(PELT)方法可以使微调的性能与较少的可训练参数相匹配,并且在训练数据受到限制时尤其表现良好。但是,不同的PELT方法在相同的任务上的性能可能会有所不同,因此为特定任务选择最合适的方法是不平凡的,尤其是考虑到快速增长的新PELT方法和任务。鉴于模型多样性和模型选择的难度,我们提出了一个统一的框架Unipelt,该框架将不同的毛皮方法纳入了子模型,并学会了激活最适合当前数据或通过门控机制设置的方法。在胶水基准上,与最佳的单个毛皮方法相比,UniPelt始终达到1〜4%的增长,而其融合甚至超过了不同设置下的微调。此外,UniPelt通常超过上限,该上限在每个任务上单独使用的所有子模型的最佳性能,表明多种PELT方法的混合物可能本质上比单个方法更有效。
translated by 谷歌翻译